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摘要 : 【 目的 ] 建立 结合 多 种 特征 的 条 件 随 机 场 模型 ， 探 索 从 大 型 生物 医学 文本 中 同时 自动 提取 化 学 物质 和 疾病 


实体 的 方法 。[ 方法 ] 结合 命名 实体 识别 特征 , 包括 词法 特征 、 领 域 知识 特征 、 词 典 匹 配 特征 和 无 监督 学 习 特 征 
等 ， 比 较 不 同 特征 对 命名 实体 识别 的 效果 , 并 优化 模型 。[ 结果 ] CRF 模型 纳入 词法 特征 、 词 典 匹配 特征 、 无 监 
督学 习 特征 和 部 分 领域 知识 特征 ,化 学 物质 识别 准确 率 97.3396. AEX 80.7696. F 值 88.27%, 疾病 实体 识别 准 
确 率 为 84.20%、 召回 率 为 81.9696. F 值 为 83.0796. [ 局 限 ] 同时 识别 化 学 物质 和 疾病 实体 可 能 存在 互相 干扰 , 删 
除 的 部 分 领域 特征 可 能 含有 有 用 信息 。[ 结论 ] 本 研究 可 为 生物 医学 命名 实体 识别 的 特征 选择 提供 参考 ,同时 仍 


需 优 化 特征 以 获得 更 好 的 识别 效果 。 


关键 词 : 命名 实体 识别 “条件 随机 场 ”文本 挖掘 ”无 监督 学 习 
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复杂 的 化 学 物质 对 疾病 的 作用 机 制 错综复杂 , 使 
人 们 对 其 相关 药物 的 安全 性 更 加 警惕， 据 统计 , 化 学 
物质 与 疾病 的 关系 已 成 为 PubMed 数据 库 中 用 户 检索 
最 广泛 的 主题 之 一 趾 。 而 由 于 临床 试验 的 长 期 性 、 复 
IRTE, 批准 上 市 药物 的 副作用 反馈 机 制 的 延迟 ， 导 致 
难以 早期 预测 到 由 化 学 物质 导致 的 疾病 相关 信息 。 

与 此 同 此 , 生物 医学 文献 爆炸 性 增长 ， 其 中 殖 含 
的 化 学 物质 -疾病 直接 与 间接 关系 与 漫长 的 临床 试验 
相 比 无 疑 更 为 敏感 。 随 着 计算 机 和 文本 挖掘 技术 ,如 
自然 语言 处 理 等 的 发 展 , 使 得 从 大 型 、 非 结构 化 的 自 
由 文本 中 识别 和 提取 化 学 物质 -疾病 关联 成 为 可 能 。 本 
文 旨 在 比较 并 结合 多 种 特征 ,建立 条 件 随机 场 
(Conditional Random Fields, CRF) 模 型 ， 以 探索 从 大 型 
生物 医学 文本 中 同时 自动 识别 化 学 物质 和 疾病 实体 的 


m} 


2 研究 现状 


识别 化 学 物质 和 疾病 实体 涉及 到 的 关键 技术 主要 
是 命名 实体 识别 (Named Entity Recognization, NER), 
即 从 生物 医学 数据 中 识别 出 化 学 物质 和 疾病 实体 , E 
要 思路 是 将 识别 任务 转化 为 对 文本 基本 单位 的 类 别 标 
注 。 其 复杂 之 处 在 于 , 现 阶段 药物 和 疾病 命名 实体 数 
量 的 爆炸 性 增长 、 命 名 实体 构 词 形式 的 多 样 性 和 低 规 
律 性 ,以 及 命名 规则 (尤其 是 药物 ) 不 统一 等 中 。 

对 于 目前 NER ME, 常用 方法 可 分 为 基于 规则 、 
基于 词典 和 基于 机 带 学 习 等 。 

(1) 基于 规则 (模板 ): 通过 规则 大 致 描述 使 用 的 
语法 、 名 法、 词汇 、 形 态 以 及 书写 的 特点 长 期 形成 的 
模式 ， 如 对 于 化 学 物质 实体 来 说 ,其 表达 通常 由 大 小 
写字 母 、 数 字 、 连 字符 (. 和 /)、 和 希腊 字母 、 罗 马 数字 、 
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引号 、 括 号 等 字符 组 成 。 基 于 规则 的 NER 系统 通常 依 
赖 于 由 领域 专家 设计 的 规则 ,并 通过 正则 表达 式 实 
现 。 如 徐 博 等 采用 基于 上 下 文 模板 的 方法 ， 从 PubMed 
中 构建 了 丰富 的 药物 词典 , 不 仅 可 识别 出 DrugBank 
中 已 有 药 名 , 其 至 还 能 识别 该 库 中 没有 的 药物 中。Tikk 
等 融合 了 基于 规则 的 方法 和 条 件 随 机 场 方法 进行 药物 
实体 识别 外 ,但 因为 对 专家 知识 的 依赖 ,这 种 类 型 的 命 
名 实体 识别 系统 缺乏 可 扩展 性 和 适应 性 。 

Q) 基于 词典 : 依赖 于 现 有 的 词典 识别 自由 文本 
中 的 命名 实体 , 通常 基于 字符 串 匹 配 或 字符 串 相似 的 
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词典 特征 


XN 
算法 , 其 性 能 取决 于 底层 术语 资源 是 否 全 面 及 算法 性 学 习 特征 
能 。 何 林娜 等 运用 基于 词典 和 CRF 相 结合 的 方法 , 利 图 1 化 学 物质 _ 疾 病 命名 实体 识别 主要 流程 
用 PubMed 信息 构建 药物 词典 , 并 利用 特征 厅 合 泛 化 
© 等 方法 对 词典 进行 去 噪 ,获得 了 较 好 的 上 值 回 。 器 ,可 作为 NER 预 处 理 的 工具 553。 在 Linux 系统 中 运 
N 


G) 基于 机 器 学 习 : 目前 较 流行 的 NER 方法 , 对 17 GENIA FEES, PATA FE: / geniaiagger <input> 
EU。 词典 和 规则 的 依赖 性 较 小 , 可 适用 于 不 同 领域 缺陷 upute 输入 文件 为 切 分 好 的 句子 (一 名 一行) 输出 结 
e 在 于 需要 手动 注释 语料库 。 机 器 学 习 模型 的 性 能 取决 ”” 果 包 括 每 个 单词 的 词 原形 、 词 性 、 词 块 和 对 蛋白 、 
一 于 对 于 文本 特征 的 辨别 力 以 及 算法 器。 其 中 , 常用 的 方 DNA, RNA 和 细胞 系 等 实体 的 识别 结果 。 
N 法 有 支持 向 量 机 模型 ABRIR, RARR 3.2 特征 集 构建 
本 。 和 本 文 使 用 的 CRF 模型 等 。CRF 由 Lafferty 等 "提出 ， (1) 词法 特征 
义 结合 了 最 大 入 模型 和 隐 马 尔 可 夫 模型 的 特点 ， 是 一 种 ee 
”典型 的 判别 式 模型 ,已 有 研究 证 明 其 对 于 生物 医学 领 edil pec de cM en 
> 停 用 词 特征 : 对 每 个 词 匹配 停 用 词 表 ， 如 果 该 词 为 停 
p 251515] A ut 5 e 
域 NPR o 如 Lee 等 使 用 改进 的 条 件 随机 场 用 词 ， 则 当前 词 停 用 词 特征 值 为 Y, 否则 为 N, 本 文 所 用 停 
算法 提高 疾病 NER 的 水 平台 。 用 词 表 来 自 tmChemt。 
在 实际 使 用 中 通常 会 有 几 种 方法 的 结合 , 以 获得 Q) 领域 知识 特征 
c 更 好 的 识别 效果 , 如 Lowe 等 提出 使 用 结合 语法 和 词 @D 构 词 特征 : 对 每 个 词 进行 正则 表达 匹配 ， 以 文本 中 当 
O 典 的 方法 进行 化 学 物质 NERU, Mif tmChem! , 前 词 的 构 词 形式 是 否 符合 大 小 写字 母 、 数 字 、 连 字符 (. 和 小 、 
DNorm02 等 工具 和 NCBI 疾病 语料库 03 的 开发 也 为 希腊 字母 、 罗 马 数字 、 引 号 、 括 号 等 特征 为 条 件 ， 如 果 符合 
pedi ` 则 当前 词 的 构 词 特征 值 为 Y 否则 为 N， 得 到 构 词 特征 矩阵 。 

BET [EUR i UR 
VERRA TEA 加 高 频 词 特征 : 高 频 词 是 指 在 化 学 物质 和 疾病 命名 实 
3 ”研究 思路 与 框架 体 中 出 现 频率 比较 高 的 单词 本 文通 过 如 下 步骤 构建 高 频 词 

I^ 一 
本 文 参照 BioCreative V 大 赛 语料库 中 ,结合 当前 


列表 9 
1) 分 别 统 计 训 练 语 料 中 标识 为 化 学 物质 和 疾病 命名 实 
m A his 并 记录 单 证 实 2 Pe. . ed js 
NER 领域 常用 的 方法 , HEARRE UA 人 
VI Zi T7 JERAT 7 R 
HA A ELS A WRR ove SJ esp t SEE 
寺 征 、 领 域 知识 特征 和 无 监督 学 习 特征 的 CRF 模型 ， 2) 计 算 关 键 词 特征 信息 的 权重 Weight, 其 中 Weight=CF/ 
同时 从 生物 医学 文献 中 识别 化 学 物质 和 疾病 实体 , 通 。 TFx100%; 
过 反复 调试 对 照 ， 最终 确定 出 识别 效果 最 佳 的 CRF 模 
型 ， 如 图 1 所 示 。 流 程 实现 主要 依赖 多 种 自然 语言 处 
理工 具 和 Perl 语言 。 


TF<10 fe Weightz 0.7; 或 同时 满足 TF2 且 TF<5 fe Weight 
z0.8 的 单词 ; 最 终 分 别 得 到 化 学 物质 和 疾病 高 频 词 列表 。 


3) 提 取 同 时 满足 TFZ 100 和 Weightz0.5; 或 同时 满足 
3.1 GENIA 预 处 理 


TFz10 且 TF<100 和 Weightz0.6; 或 同时 满足 TF>5 H 
GENIA Tagger 是 专门 针对 生物 医学 文本 的 分 析 


现代 图 书 情报 技术 


以 当前 词 是 否 在 高 频 词 列表 中 出 现 为 特征 ， 如 果 出 现 则 当 
前 词 的 关键 词 特征 值 为 Y 否则 为 N。 


除 高 频 词 特征 外 ， 以 下 词组 特征 、 词 形 特征 、 边 界 词 特 
征 、 上 下 文 特征 列表 构建 也 采用 此 方法 。 

图 词组 特征 : 对 每 个 单词 分 别 取 3 个 字符 的 前 组 和 后 组 
作为 该 单词 的 词缀 特征 。 以 前 缓 为 例 ， 分 别 统计 训练 语 料 中 
所 有 长 度 大 于 5 的 单词 和 实体 的 前 3 个 字符 组 成 训练 语 料 前 
HORDE, 统计 各 个 前 级 的 出 现 次 数 TFE、CF。 参 照 @ 获 得 化 
学 物质 前 缓 列表、 后 缓 列表、 疾病 前 组 列表 、 后 组 列表 。 以 
当前 词 是 否 在 词组 列表 中 出 现 为 特征 ,如 果 出 现 则 当前 词 
的 词 级 特征 值 为 Y 否则 为 N。 

图 词 形 特征 : 化 学 物质 实体 是 一 类 特异 性 非常 高 的 实 
体 ， 其 通常 可 能 具有 相同 的 词 形 。 通 过 “AaX0” 方 式 将 大 写字 
母 蔡 换 为 A， 小 写字 母 蔡 换 为 a, 数字 替换 为 0 其 他 字符 蔡 
HA X, 构建 词 形 特征 。 统 计 各 种 词 形 对 应 的 单词 数目 TF, 
和 实体 对 应 的 各 种 词 形 的 数目 CF, 参照 @ 获 得 化 学 物质 词 
形 列表 。 以 当前 词 是 否 在 列表 中 出 现 为 特征 ， 如 果 出 现 则 当 
前 词 的 词 形 特征 值 为 Y 否则 为 N。 

Gu Ads AE: 边界 词 是 指 实体 的 第 一 个 和 最 后 一 个 
单词 。 大 部 分 实体 是 由 多 词组 成 ,利用 边界 词 信息 可 以 提高 
边界 识别 能 力 ,减少 复合 性 实体 的 识别 错误 率 。 参 照 @) 构 建 
化 学 物质 左边 界 词 和 右边 界 词 列表 , 疾病 左边 界 词 和 右边 
界 词 列 表 。 以 当前 词 是 否 在 列表 中 出 现 为 特征 ,如果 出 现 则 
当前 词 的 边界 词 特征 值 为 Y 否则 为 N。 

(@ 上 下 文 特征 : 上 下 文 信息 是 指 实体 前 一 个 词 和 后 一 
个 词 的 单词 信息 ， 利 用 上 下 文 信息 可 以 提高 基因 实体 边界 
识别 能 力 。 参 照 @ 构 建 化 学 物质 上 文 和 下 文 ， 疾病 上 文 和 下 
文 列 表 。 以 当前 词 是 否 在 列表 中 出 现 为 特征 ,如果 出 现 则 当 
前 词 的 上 下 文 特征 值 为 Y 否则 为 N。 

(D— G8 fe ia Hp: 一 元 词 指 仅 由 一 个 单词 构成 
的 实体 ,， 谋 套 词 指 不 仅 能 独立 作为 一 个 命名 实体 ， 也 能 和 其 
他 单词 组 成 复合 命名 实体 ,根据 训练 语 料 构建 一 元 词 特征 
和 点 套 词 词 表 ; 以 当前 词 是 否 在 列表 中 出 现 为 特征 ， 如 果 出 
现 则 当前 词 的 词 形 特征 值 为 了 否则 为 N。 

(&tmChem^ 4e DNorm 特征 : 将 tmChemU" 4e DNormU?! 
运行 结果 作为 CRF 特征 之 一 : Fg 3p 33] 2€ 3k tmChemU!! 
和 DNormb2 标 注 为 实体 为 特征 ,如 果 标 注 则 当前 词 的 特征 
187g Y, 否则 为 N。tmChem 和 DNorm 是 已 有 的 、 相 对 成 熟 
的 命名 实体 识别 标注 工具 ， 本 研究 引入 该 特征 旨 在 观察 新 
NER 模型 与 已 有 工具 的 比较 , 以 及 加 入 该 特征 能 否 改 善 
NER 结果 。 

(3) 词典 匹配 特征 

构建 化 学 物质 和 疾病 词典 ， 对 语 料 词 进行 匹配 ， 以 当前 
词 是 否 在 词典 单词 列表 中 出 现 为 特征 如果 出 现 则 当前 词 
的 词典 单词 特征 值 为 Y 否则 为 N。 


CDhttps://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/tmTools/. 
Qhttps://code.google.com/p/word2vec/. 
G)https://github.com/percyliang/brown-cluster. 


Al 
N 


ta i A 
InaAIVT-T3 


总 第 275 期 20164 第 10 期 


(4) 无 监督 学 习 特 征 

四 词 向 量 特征 : 采用 Word2Vec 开源 工具 "生成 词 向 量 07 
将 词 表示 为 低 维 的 、 连 续 的 、 实 值 向 量 , 是 词 表 示 的 一 种 形 
式 , 输入 样本 量 越 大 效果 越 好 。 本 文 利用 PubMed 数据 库 检 
索 “C 大 类 AND D 大 类 ”的 检索 所 有 返回 结果 (检索 式 : 
"Chemicals and Drugs Category”[Mesh] AND “Diseases 
Category"[Mesh] AND hasabstract[text], 3 4 417 929 篇 摘要 ) 
以 及 BioCreaTive V 提供 的 训练 集 和 测试 集 作为 综合 输入 语 
料 进 行 训练 。 本 研究 使 用 向 量 维度 为 50, 并 采用 Wu 等 [9 
的 方法 将 词 向 量 和 矩阵 简化 为 (+, —, 0) 形 式 ， 公式 如 下 : 


, 1 
MEAN()' =— Mj 


j Mi>0 
j i=0 


V 
MEAN(j)- -DM Mi; <0 


j i-0 


ij 


+,if Mij »MEAN()* 
Mj =1_,if Mj» MEAN()- 
0, otherwise 

Jt, MEANG) Fe MEAN() 2-9 s AEBE SR j P109 E 
值 和 负 均 值 。 

DA R KIFE: Brown 等 PEO 提 出 一 种 基于 词 聚 类 的 层 
次 聚 类 算法 "， 按 照 从 底层 到 顶层 的 顺序 进行 聚 类 。 其 输入 
是 语料库 中 的 词语 ， 其 输出 是 二 进 制 元 素 构成 的 树 结构 。 选 
取 叶 子 节点 的 路 径 作 为 当前 词 的 布朗 聚 类 特征 ， 用 类 似 霍 
夫 受 编码 的 方式 对 每 个 词 进行 编码 ， 每 个 词 都 由 一 长 串 的 
二 进 制 码 构成 。 

(@ 基 于 词 向 量 的 K-means 聚 类 特征 : 在 得 到 词 向 量 的 基 
zkt, M Word2vec 自 带 的 KK-means 算法 对 词 向 量 进行 聚 类 ， 
将 相似 度 高 的 词 聚 在 一 起 ,本 研究 类 别 数 取 256 类 。 


4 实证 分 析 
4.1 数据 源 


BioCreative(Critical Assessment of Information 
Extraction in Biology, 生物 信息 提取 重要 评估 ) 是 一 项 
国际 性 大 赛 ， 致 力 于 评价 文本 挖掘 和 信息 提取 系统 在 
生物 学 领域 的 应 用 。2015 年 间 举 办 的 BioCreative V 任 
务 包 括 疾病 命名 实体 识别 (Disease Named Entity 
Recognition and Normalization, DNER) 和 化 学 物质 - 疾 
病 关 系 (Chemical-Disease Relations，CDR) 提 取 两 个 子 
任务 , 可 以 作为 本 研究 的 语料库 中 ,特别 说 明 的 是 ， 
该 项 目 认为 药物 和 化 学 物质 之 间 是 可 相互 转换 的 。 
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下 载 其 训练 集 测 试 集 “， 从 语料库 中 提取 分 别 
PMID, TI 和 AB 字段 ; 句子 切 分 后 建立 索引 ， 转 化 为 
CRF 训练 所 需 的 标注 模式 。 

4.20 ”词典 构建 
《医学 主题 词 表 XMedical Subject Headings, MeSH), 


是 美国 国立 医学 图 书馆 编制 的 权威 性 主题 词 表 , 是 一 
部 规范 化 的 可 扩充 的 动态 性 叙 词 表 ,， 可 以 用 来 进行 
NER 和 标准 化 。 从 NLM 网 站 ”下 载 MeSH 词 表 。 

采用 如 下 方法 构建 词 表 : 

(1) 提取 MeSH 词 表 中 所 有 属于 C 大 类 (Chemicals 
and Drugs Category) 和 D 大 类 (Diseases Category) 的 主 
题词 (MH 字段 ，MESH HEADING) 及 其 人 口 词 
(ENTRY FB), 并 建立 索引 , 使 每 种 化 学 物质 与 其 
MeSH ID 一 一 对 应 。 

(2) 考虑 到 MeSH 词 表 中 化 学 物质 和 疾病 名 称 很 
大 一 部 分 包含 在 其 增补 概念 记录 (Supplementary 
Concept Records, SCRs), 其 中 没有 可 以 明确 表明 属于 
类 别 的 字段 , 笔者 制定 如 下 规则 从 补充 记录 中 提取 化 
学 物质 和 疾病 : 如 果 该 记录 的 HM 字段 (Heading 
Mapped-to) 指 向 MeSH 词 表 中 的 C 大 类 或 D 大 类 物质 ， 
则 认为 该 记录 表示 一 种 化 学 物质 或 疾病 ,同样 也 编制 


相应 索引 ， 由 此 获得 化 学 物质 和 疾病 两 个 词 表 。 
4.3 ”特征 集 列表 构建 
从 训练 语 料 中 获得 化 学 物质 和 疾病 高 频 词 列表 、 
词 级 列表 、 词 形 列 表 、 左 右边 界 词 列表 、 上 下 文 列表 。 
以 化 学 物质 高 频 词 列表 为 例 如 表 1 所 示 : 
表 1 化 学 物质 高 频 词 列表 (部 分 ) 
实体 中 出 现 ” 语 料 中 出 现 


单词 Weight=CF/TF 


频次 (CF) 频次 (TF) 
pirenzepine 4 4 4/4 
dapsone 3 6 3/6 
ll-deoxycortisol 2 2 2/2 
creatine 10 10 10/10 
amphetamine 23 30 23/30 
sulindac 6 6 6/6 
ribavirin 15 15 15/15 
AX 10 13 10/13 


4.4 特征 矩阵 

参照 实验 方案 设计 ， 分别 对 特征 集 列表 进行 匹配 
获得 特征 矩阵 形式 如 表 2 所 示 , 本 文 标注 方法 采用 
“IBO” 模 式 , 其 中 I(Inside) 表 示 当 前 词 是 命名 实体 中 的 
一 个 词 ，O(Outside) 表 示 当 前 词 不 是 命名 实体 ， 
B(Beginning) 表 示 当前 词 是 命名 实体 的 首 词 。 


表 2 特征 矩阵 (部 分 ) 

= EE S O 5 ey 词典 RET 

ij 语法 特征 ”领域 特征 无 监督 学 习 特 征 特征 FÈAR 

1110010000000000000000000000 
Butyrylcholiriesterase NN dn x nr A DE v 11100100000000000000000000000000 x i : 
di ; à 11100100000000000000000000000000000000000 
mutations NNS I-NP N .. N - 43 00 N NO 
, —— -— 117 0000000000000000000000000 
EI LE 132 1110010000000000000 s 
Pie ! U 1110010000000000000 
with IN BPPN . N 0 158 N NO 
E Eee A 5. 111001000000000000 UR 
PO ong Re 178 11100100000000000000000000000000 RE 
RN i np RN js 11100100000000000000000000000000 ae S TONS 
d T n UR ia 111001000000000000000 C ds 
TER i » 1110010000000000000000000000000 A 
for IN BPPN . N - 134 N NO 
im - T BAEN » sg 1110010000000000000 x 
DE DE OIN N N ga 11100100000000000000000000000000 i ncn 
TARY O N No ~ q7 1100100000000000 N 

"5 s 11100101 


CDhttp://www.biocreative.org/. 
Qhttps://www.nlm.nih.gov/mesh/filelist.html. 


现代 图 书 情报 技术 


45 执行 CRF 模型 

本 文采 用 CRFs++ -0.58 开源 工具 包 "构建 化 学 物 
质 -疾病 命名 实体 识别 模型 .CRF++ 通 过 定义 特征 模板 
来 提取 训练 语 料 中 的 特征 ， 以 此 实现 对 训练 语 料 进行 
学 习 。 特征 模板 文件 中 的 每 一 行 代表 CRF++ 的 特征 提 
取 模 式 , 其 中 %x[row，col] 表 示 输 入 数据 中 的 一 个 
token, row 和 col 表示 相对 的 行 偏 移 与 列 偏 移 ( 见 表 3)。 
使 用 的 CRF++ 模 板 均 为 Unigram 类 型 , 调整 特征 模板 
以 获得 最 好 的 NER 结果 。 

表 3 ”CRF++ 特征 模板 (部 分 ) 
# Unigram 


U 
U 
U 
U 
U 
U 
U 
U 
U 


— 


: %x[-2, 0] 

: %x[-1, 0] 

: %x[0, 0] 

%x[1, 0] 

: %x[2, 0] 

%x[-2, 0]/Vox[-1, 0] 
: %x[-1, 0]/Vox[0, 0] 
: %x[0, 0]/%x[1, 0] 
Vox[1, 0]/%x[2, 0] 


5 实验 结果 


5.1 数据 处 理 结果 

本 研究 所 使 用 训练 集 和 测试 集 均 包含 500 篇 
PubMed 摘 要 , 各 包含 111 990 和 116 840 个 单词 , 分 别 
fi 5203. 5385 个 化 学 物质 实体 和 4 182、4 424 个 
疾病 实体 。MeSH 词 表 处 理 后 得 到 包含 578 475 个 化 
学 物质 术语 的 化 学 词典 和 包含 195 151 个 疾病 术语 的 
疾病 词典 。 

5.2 CRF 特征 模板 和 NER 结果 

经 调试 比较 , 最 终 使 用 的 模板 共 包 含 21 个 特征 ， 
其 中 5 个 化 学 特征 , 5 个 疾病 特征 , 11 个 化 学 物质 疾病 
公用 特征 ; 单词 、 词 原形 、 词 块 等 8 个 特征 使 用 上 下 
文 窗口 为 5 的 模板 。 

不 同 NER 模型 识别 结果 如 表 4 所 示 , 可 见 只 使 用 
基于 词典 匹配 结果 准确 率 和 下 值 较 低 , 但 召回 率 较 高 ; 
加 入 词法 特征 后 ,化 学 物质 和 疾病 实体 的 识别 下 值 各 
自 提 高 了 10% 左 右 ， 准 确 率 得 到 较 大 提高 ， 而 召回 率 


Dhttp://crfpp.sourceforge.net/. 
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都 有 所 下 降 ; 加 入 领域 知识 特征 后 ,化 学 物质 NER 虽 
然 准 确 率 有 所 升 高 ,召回 率 继续 较 大 幅度 下 降 ， 导致 
F 值 随 之 下 降 , NER 效 果 变 差 , 经 过 反复 试验 在 最 终 的 
模型 中 去 掉 除 了 化 学 物质 上 下 文 和 tmChem 结果 以 
外 的 领域 知识 特征 , 相 比 之 下 , 疾病 NER 的 准确 率 
和 召回 率 均 有 所 上 升 , 对 比 验 证 后 ,发 现 保 留 疾病 实 
体 上 下 文 和 DNorm 结果 特征 结果 最 佳 ; 加 入 无 监督 
学 习 特 征 之 后 , 两 种 NER 效果 均 有 所 提高 , 最 终 化 学 
物质 NER ÉJ F 值 达到 88.2796, 疾病 NER 的 F 值 达到 
83.07%， 总 体 准确 率 、 召 回 率 和 下 值 为 90.64%、81.32%、 
85.73%。 


攻 4 化 学 物质 和 疾病 NER 结果 


准确 率 召回 率 FÉ 


iv 
pis C) V 的 
词典 匹配 Chemical 64.07 83.73 72.59 
Disease 59.09 82.41 68.83 
EEE - Chemical 91.07 74.T1 82.12 
n] zi] HL 

Bits SURGE Disease 87.51 65.76 75.09 
Z » Chemical 96.94 59.36 73.63 

领域 + 词法 + 词典 匹 
领域 + 词法 + 词典 严 配 。 Disease 85.67 73.55 79.5 
调整 后 领域 + 词法 + Chemical 97.15 80.35 87.96 
词典 匹配 Disease 85.10 79.61 82.26 
调整 后 领域 + 词法 + 词典 Chemical 97.33 80.76 8827 
匹配 + 无 监督 学 习 Disease 84.20 81.96 83.07 


此 外 , 在 加 入 已 有 工具 tmChem 和 DNorm Z Bi, 
模型 可 达到 的 化 学 物质 和 疾病 识别 效果 F 值 分 别 为 
86.45% 、80.13%， 高 于 DNorm(78.296) 和 tmChem 
(83.696), HEJNA tmChem 和 DNorm 特征 后 , 模型 总 
体 识别 效果 下 值 约 提高 3%。 

但 是 可 能 由 于 同时 识别 化 学 物质 和 疾病 实体 的 原 
因 ， 导 致 单独 疾病 NER 结果 不 甚 理 想 , 在 BioCreative 
V 所 有 参赛 队伍 中 准确 率 、 召 回 率 、F 值 分 别 排名 7, 4, 
7( 最 高 值 分 别 为 90.53%., 86.17%, 86.46%; 平均 值 
78.9995. 74.8196, 76.0396). 

对 于 识别 错误 的 单词 进行 分 析 , 可 将 主要 错误 类 
型 分 为 : 

(1) 错误 标记 的 实体 : 即 非 实体 被 标记 为 实体 ， 
如 high Adherence group; 
(2) 未 识别 出 的 实体 : 如 复杂 的 化 学 实体 3, 
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4-methylenedioxymethamphetamine， 不 常见 连词 符 实 
体 piperacillin/tazobactam 和 缩写 实体 , 如 iAs(inorganic 
Arsenic 缩写 ); 

(3) 边界 识别 错误 的 实体 : 即 不 完整 或 超出 边界 
的 实体 , 如 acute myocardial ischemia, 会 把 程度 词 识 
别 出 来 。 

其 原因 可 能 是 加 入 领域 知识 特征 后 , 模型 性 能 
所 下 降 , 故 在 最 终 模 型 中 删除 了 构 词 特征 、 词 形 特征 
和 边界 词 特征 等 可 能 对 于 识别 上 述 类 型 实体 有 重要 作 
用 的 特征 。 


6 结 语 


本 文 在 前 人 的 研究 基础 上 ,对 结合 多 种 特征 的 
CRF 模型 的 识别 结果 进行 探索 , 构建 了 一 种 同时 从 生 
物 医学 文献 中 识别 化 学 物质 和 疾病 实体 的 模型 。 所 得 
模型 涵盖 了 多 种 当前 流行 的 特征 , 包括 词法 特征 、 领 
域 知识 特征 、 词 典 匹 配 特征 和 无 监督 学 习 特征 , 实验 
结果 表明 ,领域 知识 特征 中 高 频 词 特征 、 构 词 特征 、 
词 形 特征 和 边界 词 特征 对 于 化 学 物质 NER. 表现 不 佳 ， 
最 终 模型 中 仅 保 留 了 领域 知识 的 上 下 文 和 tmChem 特 
征 , 但 这 一 策略 牺牲 了 部 分 实体 的 识别 效果 。 

进一步 研究 方向 将 针对 识别 错误 的 实体 类 型 进行 
后 续 处 理 , 如 将 括号 内 的 缩写 词 、 连 词 符 (and/or/-) 连 接 
词 等 定义 为 特殊 特征 ,并 对 程度 词 进行 限制 .此 外 ,对 
于 无 法 准确 识别 的 复杂 化 学 物质 实体 ,可 通过 完善 词 
典 和 加 强 词 形 、 构 词 特征 权重 加 以 识别 。 

本 研究 尚 不 完善 ,可 为 后 续 化 学 物质 -疾病 NER 
模型 的 特征 确定 提供 参考 , 后 期 拟 在 此 工作 基础 上 开 
发 关系 提取 算法 , 通过 句法 分 析 及 机 器 学 习 算 法 提取 
化 学 物质 -疾病 实体 , 结合 其 语义 关联 整合 为 完整 的 
化 学 物质 -语义 关系 -疾病 对 ,最 终 开发 出 从 生物 医学 
文本 中 自动 识别 和 提取 化 学 物质 和 疾病 实体 及 其 相互 
关系 的 平台 。 
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Extracting Chemical and Disease Named Entities with 
Multiple-Feature CRF Model 


Sui Mingshuang Cui Lei 
(School of Medical Informatics, China Medical University, Shenyang 110122, China) 


Abstract: [Objective] This study aims to build a CRF model with multiple features, which could automatically extract 
chemical and disease named entities from biomedical documents. [Methods] We compared the performance of popular 
named entity recognition features, including lexical features, domain knowledge features, dictionary matching features 
as well as unsupervised learning features, and then optimized the new model. [Results] We built the final CRF model 
with lexical features, dictionary matching features, unsupervised learning features and part of the domain knowledge 
features. The precision, recall, and F-score for chemical entities identification tasks were 97.3396, 80.7696, and 88.27, 
respectively. For disease entities, they were 84.2096, 81.96%, and 83.0796, respectively. [Limitations] Chemical and 
disease entities may interfere with each other while being identified simultaneously. The deleted domain knowledge 
features may contain valuable information. [Conclusions] This study proposed a new method to identify biomedical 
named entities, which could be further improved. 


Keywords: Named entity recognition CRF Text mining Unsupervised learning 
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